大数据的关键技术(一)

一、大数据处理的基本流程——采集、存储、分析和实现①数据采集->②数据归整->③数据存储->④数据处理->⑤数据呈现二、大数据技术数据采集宇预处理 数据采集和管理 数据处理宇分析 数据安全与隐私保护(一)数据采集与预处理:联机分析处理(OLAP)与实时处理分析 (二)数据存储

Flink学习中之time、watermark、state

🌿今天我们来了解一下flink中的几个重要基础概念:time、watermark、state,这是flink流处理中实现数据流执行速度快和结果正确的要点,对往期内容感兴趣的同学可以看下面👇:链接: Flink学习专辑.🌰其实在前面的章节中,我们也介绍了一些时间、状态的概念,但不够深入,本篇博客

客快物流大数据项目(五十六): 编写SparkSession对象工具类

编写SparkSession对象工具类后续业务开发过程中,每个子业务(kudu、es、clickhouse等等)都会创建SparkSession对象,以及初始化开发环境,因此将环境初始化操作封装成工具类,方便后续使用实现步骤:在公共模块的scala目录的common程序包下创建SparkUtils

2022暑期实习字节跳动数据研发面试经历

🌟今天下午面试两家,字节跳动数据研发一面和百度三面,百度那边突然不面了,hr说下个星期再看看,是直接过了还是再来一面,需要和部门商量一下,先来总结一下字节跳动的面试吧。废话,对百度面试感兴趣的同学可以参考如下文章:链接: 2022百度大数据开发工程师实习面试经历.链接: spark学习之并行度、并

数字孪生是现实世界展现,“谁”能保证数据的真实性与安全性呢?

数字孪生是现实世界展现,“谁”能保证数据的真实性与安全性呢?

react从入门到入魔

react从入门到入迷React的基本使用创建虚拟dom的两种方式使用jsx创建虚拟dom使用原生js创建虚拟domReact的基本使用直接上hello word案例 <!DOCTYPE html><html lang="en"><head> <met

mysql-5.5.20-win32.msi安装教程详解

系列文章目录文章目录系列文章目录前言一、打开任务管理器,其中三种方式如下:1.找到下方任务栏,在空白处点击鼠标右键,找到"任务管理器",点击打开,即可开启任务管理器2.使用快捷键,先按“Ctrl+Alt”键,然后再按“Delete”键,选择"任务管理器"3.使用快捷键“Win+R”,弹出运行窗口,在

Elasticsearch(吃个泡面的时间了解清楚)

亮点Elasticsearch 官方入门视频涵盖:如何下载/运行 Elasticsearch,及其先决条件 通过CRUD REST API 添加,更新,检索和删除数据 基本的文本分析,包括标记和过滤 基本搜索查询 聚合:Elasticsearch 的面向和分析的主功能其他资源:Elasticsear

Hadoop—在私有云上创建与配置虚拟机

Hadoop-在私有云上创建与配置虚拟机一、登录私有云(一)查看【概览】(二)查看【镜像】(三)查看【实例】二、创建网络(一)创建网络三、创建实例(一)基于WindowsThinPC镜像创建hw_win7实例(二)基于centos7创建master实例(三)基于centos7创建slave1实例(四

hive之连续登录问题

目录1、开窗函数的格式2、窗口范围图例连续登录问题:限制时间段内登录次数问题:1、开窗函数的格式FUNCTION_NAME([argument_list])OVER ([PARTITION BY window_partition,…][ORDER BY window_ordering, … [ASC

大数据学习笔记55:搭建HBase环境

1. 搭建HBase单机版环境2. 搭建HBase伪分布式环境3. 搭建HBase完全分布式环境

Hadoop—在私有云上创建与配置虚拟机

一、登录已有的私有云账号(1)查看【概览】(2)查看【镜像】(3)查看【实例】二、创建项目、用户与网络(1)创建项目 - huawei(2)创建用户 - huawei(3)创建网络 - LAN192三、创建实例(1)基于WindowsThinPC镜像创建hw_win7实例(2)基于centos7创建

数据湖之Hudi(9):使用Spark向Hudi中插入数据

目录0. 相关文章链接1. 开发说明2. 环境构建2.1. 构建服务器环境2.2. 构建Maven项目3. Maven依赖4. 核心代码0. 相关文章链接大数据基础知识点 文章汇总1. 开发说明Apache Hudi最初是由Uber开发的,旨在以高效率实现低延迟的数据库访问。Hudi 提供了Hudi

Flink查询关联Hbase输出

1、前言大家在开发Flink的时候,很多时候会把某些固定的维度信息存储在Hbase或者Redis等这些第三方库里,已方便来跟流发生关联查询输出。本文将从如何本地搭建一个Hbase环境开始讲起,到如何构建一个Hbase公共调用类,到如何构建一个异步调用Hbase的公共代码,再到最后实际调用代码后的输出

大数据场景下的消息队列:Kafka3.0快速入门

大数据场景下的消息队列:Kafka3.0快速入门

Spark环境搭建(保姆级教程)

Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置,以及各种模式的代码提交,包括Local,Standalone,YARN。文末有相应资源下载网盘链接。

Flink旁路输出特性简单实例:按照股价对股票进行数据分流并写出到文本文件

关于旁路输出的官方文档:https://nightlies.apache.org/flink/flink-docs-release-1.14/zh/docs/dev/datastream/side_output/除了由 DataStream 操作产生的主要流之外,我们还可以产生任意数量的旁路输出结果

入门ClickHouse和Elasticsearch

❄️大多数同学都知道数据有mysql、mongodb、oracle、nosql等等,这些是我们在学校能接触到最多的数据库,今天我们就来认识2个企业中比较常用的数据库clickhouse和elasticsearch。对大数据感兴趣的同学可以参考下面的文章👇:hadoop专题: hadoop系列文章.

云原生与大数据、AIoT、开源的碰撞之路——专访小米崔宝秋

类似于云原生+大数据这样技术的“强强联合”将成为云原生时代的发展趋势,运维和基础软件开发者、服务端和前端开发者所关注的技术点各有不同。

Hadoop:HDFS总结

Hadoop:HDFS总结HDFS架构NameNode(nn): 管理文件的元数据,如文件名、文件目录结构、文件属性等信息【NN运行时,元数据是存储在内存中,从而保证响应时间】元数据只保留在内存中是非常不可靠的,所以也需要持久化到磁盘。NN内部有两类文件用于持久化元数据:fsimage文件,以fsi

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈